博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫之爬取煎蛋网妹子图
阅读量:6986 次
发布时间:2019-06-27

本文共 1612 字,大约阅读时间需要 5 分钟。

这篇文章通过简单的Python爬虫(未使用框架,仅供娱乐)获取并下载指定页面或全部图片,并将图片下载到磁盘。

 

首先导入模块:urllib.request、re、os

import urllib.requestimport reimport os

urllib.request模块用于获取HTML页面数据

re模块用于通过正则表达式解析并截取HTML页面图片url

os模块用于文件夹相关操作

 

代码不多,直接贴出来,代码解释在注释中:

def crawl_jiandan(page, path):    """    :param page:获取指定页面数据,值为0或超过最大值则爬取全部数据    :param path:文件存储路径,没有目录则创建目录    """    if page < 0:        return    # 路径是否存在,不存在则创建目录    if not os.path.exists(path):        os.mkdir(path)    # 切换到目录    os.chdir(path)    # 煎蛋网妹子图首页    url = 'http://jandan.net/ooxx/page-%d#comments' % page    while True:        request = urllib.request.Request(url)        request.add_header('User-Agent',                           'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:54.0) Gecko/20100101 Firefox/54.0')        with urllib.request.urlopen(request) as response:            html = response.read().decode('utf-8')            # print(html)            items = re.findall(re.compile(r'

 

打开本次磁盘,效果如下:

这里只显示了部分图像,有兴趣的可以下载煎蛋网所有妹子图,只需在上述函数中第一个参数传0即可

 

注意:此文仅供参考和娱乐,代码还不够严谨。

转载于:https://www.cnblogs.com/keqipu/p/7297868.html

你可能感兴趣的文章
不限量的快递查询接口-JAVA对接方法
查看>>
jib自定义entrypoint
查看>>
掌握Beyond Compare比较表格技巧
查看>>
图书资源下载网站推荐
查看>>
fastjson 总结
查看>>
Python Split函数的用法总结(持续更新中。。。)
查看>>
决心书
查看>>
介绍遍历子表的方法
查看>>
网络的分类
查看>>
PGSQL创建自增的id-- postgresql nextval 使用
查看>>
12python程序另一种运行方式
查看>>
Tomcat高级应用(添加虚拟主机及优化)
查看>>
Kindeditor(jsp)与SSH三大框架整合上传图片出错问题解决方案
查看>>
Mongodb基操--将复制集与节点选举玩弄于股掌之中
查看>>
SSM框架Spring+SpringMVC+MyBatis——详细整合教程
查看>>
winXP系统如何打开剪贴板查看器
查看>>
eyoucms网站基本信息设置
查看>>
Io流中的其他流
查看>>
55-高级路由:分发列表:DV协议应用
查看>>
如何优雅地实现分页查询
查看>>